本文提出了一种聚类技术,该技术通过学习和聚类数据分布,然后将数据分配给其分布的群集,并在此过程中降低噪声对群集结果的影响,从而降低了数据噪声的易感性。此方法涉及在分布之间引入新的距离,即期望距离(表示,编辑),它超出了最佳质量运输的最新分配距离(表示为$ W_2 $,价格为$ 2 $ -WASSERSTEIN):后者本质上仅取决于边际分布,而前者还采用了有关联合分布的信息。使用ED,该论文将经典的$ K $ -MEANS和$ K $ -MEDOIDS聚集到数据分布(而不是原始数据),并使用$ W_2 $引入$ K $ -MEDOIDS。本文还介绍了不确定性为高斯时的情况的ED距离度量的闭合表达式。还提出了拟议的ED的实现结果以及$ W_2 $距离的距离量度,用于集群现实世界中的天气数据,其中涉及以均值和方差的形式有效提取和使用潜在的不确定性信息(例如,这足以满足表征高斯分布)。结果表明,与原始数据的经典聚类相对于经典聚类的表现有惊人的性能,并且ED实现了更高的精度。这是因为虽然$ w_2 $仅采用边际分布忽略了相关性,但拟议的ED还使用将相关性考虑到距离度量的联合分布。
translated by 谷歌翻译